摘要 - 面对概括为新颖环境的挑战时,塔迪的机器人策略表现出低于标准的性能。人类纠正反馈是实现这种概括的一种至关重要的指导形式。但是,适应并从在线人类矫正中学习是一项非凡的努力:不仅机器人需要记住人类随着时间的推移的反馈,才能在新环境中检索正确的信息并降低干预率,而且还需要能够响应有关高级人类偏好对低级级别的高度调整的反馈,以响应对低级人士的高度调整。在这项工作中,我们介绍了基于大型语言模型(LLM)的在线校正(DROC)的蒸馏和检索,该系统可以响应语言反馈的任意形式,从校正中提取的可提取知识,以及基于文本和视觉相似性,从而在新颖设置中提高绩效。DROC能够响应一系列在线语言校正,这些校正解决了高级任务计划和低级技能原则中的失败。我们证明DROC有效地将相关信息从知识库中的在线更正顺序提取,并通过新任务或对象实例检索这些知识。DROC优于通过LLMS [1]直接生成机器人代码的其他技术,仅使用第一轮中所需的校正总数的一半,并且两次迭代后几乎不需要校正。我们在我们的项目网站上显示进一步的结果和视频:https://sites.google.com/stanford.edu/droc。
主要关键词
![arxiv:2311.10678V2 [CS.RO] 2024年3月21日PDF文件第1页](/bimg/4/4afd21a6f79cd0f6c59ef31f0ea0936a2ea34c24.webp)
![arxiv:2311.10678V2 [CS.RO] 2024年3月21日PDF文件第2页](/bimg/a/a92823323c736a4c9fa79cadcd6d8927a0b67d67.webp)
![arxiv:2311.10678V2 [CS.RO] 2024年3月21日PDF文件第3页](/bimg/7/73761996a1e97fac5332f5408b06686a6da5e572.webp)
![arxiv:2311.10678V2 [CS.RO] 2024年3月21日PDF文件第4页](/bimg/c/c3298cdac747a6cbd00c24b1360971b64fa78f57.webp)
![arxiv:2311.10678V2 [CS.RO] 2024年3月21日PDF文件第5页](/bimg/d/da3fa9839ab3b6c6d85affa6adff76e96cb7c918.webp)
